腾讯突破性模型训练方法RLPT:让模型自主思考学习! 腾讯联合港中大提出RLPT方法,通过强化学习让AI从预训练数据中自主推理学习,无需人工标注即可显著提升模型在数学推理、常识问答等任务上的表现,为大语言模型训练开辟了全新范式。 训练 模型 腾讯 rlpt 方法rlpt 2025-09-28 21:57 4